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要 : [ 


农业 重点 领域 的 技术 空白 ， 并 预测 空白 点 的 未 来 发 展 趋 势 ， 为 科技 管理 决策 者 提供 有 
[方法 / 过 程 ] 首 先 ， 使 用 关键 句 嘱 入 方法 和 名 向 量 聚 类 方法 ， 对 论文 和 专利 的 摘要 信息 进 
其 次 ， 构 建 语义 相似 性 网 络 和 分 类 相似 性 网 络 ， 发 现 容易 与 空白 点 形 
结果 表明 ， 该 方法 能 够 发 现 


为 中 国 畜 14 


摘 的 /意义 ] 为 了 挖 气 中国 
效 的 科技 发 展 技术 机 会 咨询 建议 。 
行 挖掘 ;然后 进行 主题 聚 类 对 比分 析 ， 发 现 技术 空白 ; 
成 交叉 融合 的 主题 方向 。 [结果 / 结论 ] 在 畜牧 兽医 领域 对 基因 组 学 技术 进行 了 实证 分 析 。 
白 ， 并 结合 专家 分 析 ， 可 以 对 畜牧 兽医 领域 基因 组 学 技术 进行 发 展现 状 解读 和 未 来 趋势 预测 ， 
学 技术 智库 咨询 提供 方法 和 数据 支撑 。 
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引用 本 文 : RS SIA, J 倩 , 等 . 畜牧 兽医 基因 组 学 领域 技术 空白 中 外 对 比 研究 [J]. 农业 图 书 情 报 学 报 , 2023, 35 (8) : 89-97. 
技术 空白 指 一 个 技术 领域 中 尚未 开发 ， 但 具有 很 
1 引言 强 技术 创新 潜力 的 部 分 。 体 现 为 在 现 有 专利 中 还 未 有 


技术 布局 的 概念 或 某 些 概 念 的 组 合 上 。 目 前 ， 针 对 技术 
空白 的 相关 研究 主要 集中 在 技术 空白 识别 中 。 这 些 研 
究 没 有 考察 技术 空白 未 来 的 发 展 趋势 ， 因 此 无 法 为 科 


科技 创新 是 指 科技 在 发 展 进步 过 程 中 发 生 的 变化 。 
科技 管理 决策 者 需要 了 解 科技 创新 发 展 的 进程 和 动态 ， 


掌握 甚至 预测 这 种 科技 创新 契机 的 存在 ， 从 而 利用 有 
限 的 资源 支持 和 促进 科技 进步 。 因 此 ， 深 入 了 解 科技 
发 展 趋势 ， 通 过 有 效 方式 识别 领域 和 行业 潜在 的 技术 
空白 至 关 重 要 。 


技 管理 决策 者 提供 进一步 的 咨询 建议 。 本 文 在 技术 空 
白 发 现 基 础 上 ， 进 一 步 在 国内 外 众多 成 熟 的 研究 和 技 
术 方 向 中 锁定 与 空白 点 有 相似 基础 研究 分 类 的 成 熟 方 
向 。 成 熟 方向 指 在 论文 和 专利 中 都 已 形成 独立 主题 ， 
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即 成 熟 方向 在 基础 研究 和 技术 应 用 领域 已 经 形成 完整 
链条 。 由 于 与 技术 空白 在 基础 研究 领域 的 相似 性 ， 因 
此 成 熟 方向 可 能 在 实验 条 件 、 实 验方 法 等 领域 提供 参 
考 价值 ， 进 而 与 技术 空白 点 在 基础 研究 领域 形成 交叉 
融合 ， 并 促进 空白 点 的 研究 基础 进一步 发 展 ， 有 利于 
技术 空白 的 发 展 和 填补 。 本 文 更 进一步 提取 了 与 成 熟 
方向 拥有 相似 基础 研究 的 其 他 主题 方向 ， 这 些 方向 也 
可 能 为 技术 空白 的 发 展 提供 些许 参考 。 另 外 ， 成 熟 技 
术 在 应 用 场景 、 技 术 功效 等 方向 也 可 能 为 技术 空白 指 
引 方 向 。 当 某 项 技术 空白 只 存在 于 中 国 时 ， 通 过 挖掘 
与 成 熟 技术 应 用 领域 相似 的 国外 技术 ， 可 以 为 中 国 技 
术 空白 的 发 展 和 填补 提供 参考 。 当 某 项 技术 空白 限制 
全 球技 术 发 展 时 ， 在 基础 研究 领域 寻求 支撑 可 能 是 一 
条 出 路 。 同 样 的 ， 本 文 在 挖掘 成 熟 方 向 技术 应 用 领域 
的 同时 ， 也 提取 了 与 成 熟 方向 拥有 相似 应 用 领域 的 其 
他 技术 方向 ， 相 同 技术 部 类 下 相似 技术 方向 之 间 形成 
的 相似 性 技术 融合 也 可 能 为 技术 空白 的 发 展 提供 些许 
参考 bl。 

通过 对 比 中 外 畜牧 兽医 领域 基因 组 学 技术 分 布 ， 
挖掘 中 国 技术 空白 点 ， 并 预测 空白 点 在 基础 研究 领域 
和 技术 应 用 领域 的 未 来 走向 ， 能 帮助 科技 管理 决策 者 
把 握 科学 技术 发 展 全 流程 和 新 动向 ， 对 科学 研究 和 技 
术 发 展 具有 指导 意义 。 


2 相关 工作 


随 着 科学 与 技术 的 快速 发 展 ， 技 术 改 进 越 来 越 显 
现 出 递归 性 特征 。 即 某 种 新 技术 不 能 凭空 而 生 ， 而 是 
有 迹 可 循 。 目 前 技术 空白 发 现 方法 主要 包括 两 种 : 第 
一 种 是 基于 专利 地 图 的 方法 。 这 类 方法 首先 需要 构建 
关键 词 关联 和 矩阵 或 者 关键 词 向 量 ， 然 后 通过 主 成 分 分 
析 鸣 、 自 组 织 映 射 R、 生 成 式 拓扑 映射 中 等 方法 进行 映 
射 ， 最 终 绘 制 成 专利 地 图 ， 并 从 中 发 现 技术 空白 点 。 
第 二 种 是 利用 技术 功效 矩阵 的 方法 。 这 类 方法 从 技术 
和 功效 两 个 维度 来 分 析 当 前 某 个 领域 的 专利 ， 以 此 来 
寻找 未 被 研发 出 来 的 新 领域 0。 这 类 方法 需要 对 专利 数 
据 逐 篇 标 引 技术 类 型 和 功效 ， 以 技术 类 型 为 纵 轴 、 功 
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效 为 横 轴 绘制 表格 。 这 类 方法 的 缺点 是 功效 的 定义 有 
时 很 难 区 隔 ， 同 时 提升 质量 和 降低 成 本 已 能 够 涵盖 大 
部 分 功效 。 本 文 使 用 关键 句 而 不 是 关键 词 来 表征 论文 
和 专利 ， 能 够 提供 更 多 语义 信息 。 另 外 ， 通 过 聚 类 方 
法 可 以 避免 逐 篇 标 引 带 来 的 工作 量 和 主观 误差 。 通 过 
对 比 中 外 论文 和 专利 的 主题 聚 类 分 布 ， 能 够 发 现 中 国 
技术 空白 点 ， 并 为 后 续 发 展 预测 提供 支撑 。 

为 了 衡量 技术 之 间 的 关系 ， 并 借 此 寻找 可 能 促进 
技术 空白 点 发 展 的 主题 方向 ， 研 究 者 主要 采用 共 类 分 
析 识 别 方法 ， 使 用 的 分 类 属性 包括 : 标准 产业 分 类 代 
码 (SIC) 由、 专利 分 类 代码 由、 关键 词 等 中。 文章 [11] 
利用 叙 词 表 对 专利 IPC 号 进行 技术 领域 归 类 ， 然 后 构 
建 领域 共 现 网 络 ， 并 利用 余弦 相似 度 计 算 IPC 分 类 颗 
粒度 的 技术 领域 融合 度 。 但 是 由 于 这 类 技术 分 类 颗粒 
度 较 粗 ， 因 此 揭示 的 技术 领域 融合 方向 也 较为 宽泛 。 
本 文 利用 论文 的 WOS 分 类 和 专利 的 IPC 分 类 获取 各 聚 
类 中 论文 和 专利 的 基础 研究 分 类 分 布 和 技术 应 用 分 类 
分 布 。 然 后 通过 计算 分 类 分 布 向 量 的 相似 度 ， 衡 量 论 
文 或 专利 中 各 聚 类 主题 的 分 类 相似 性 。 从 而 避免 了 分 
类 层级 颗粒 度 较 粗 的 问题 。 男 外 ， 本 文 同时 使 用 各 至 
类 的 仍 入 向 量 相似 度 衡 量 各 聚 类 主题 的 语义 相似 性 。 


3 研究 方法 


本 文 使 用 关键 句 舱 和 方法 挖掘 关键 句 ， 并 转化 成 
句 向 量 进行 聚 类 。 通 过 对 聚 类 结果 进行 对 比分 析 及 解 
读 ， 控 掘 技 术 空白 。 通 过 相似 性 分 析 ， 发 现 容易 与 技 
术 空 白 形 成 交叉 融合 的 主题 方向 ， 最 终 完 成 技术 空白 
发 现 与 预测 ， 达 到 咨询 建议 的 目的 。 


3.1 KHRARARBE 


首先 ， 采 用 TextRank 算法 分 别 从 论文 和 专利 的 摘 
要 信息 中 抽取 关键 句 。 关 键 句 是 对 文本 集合 的 抽取 或 
凝练 。 借 助 文本 的 语义 关键 信息 ， 可 以 减少 领域 专家 
对 聚 类 结果 标注 的 工作 量 和 时 间 鸣 。TextRank 算法 可 
用 于 进行 无 监督 关键 句 提取 ， 其 将 摘要 中 的 句子 作为 
网 络 中 的 节点 ， 将 句子 与 句子 之 间 的 共 现 关系 表示 成 
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网 络 中 节点 之 间 的 边 ， 将 句子 对 之 间 的 共 现 相似 度 作 
为 边 的 权重 。TextRank 算法 常 被 用 来 从 给 定 的 文本 中 
抽取 关键 词 、 关 键 词 组 和 关键 名 中 。 

然后 ,将 TextRank 算法 提取 的 关键 名 作为 Sentence- 
BERT 算法 的 输入 ， 得 到 关键 句 般 入。 与 word2vec!, 
FastText'345 ju] ix A FEEL, Sentence-BERT 算法 中 
可 以 将 文本 表示 成 数字 向 量 ， 为 后 续 的 学 习 任 务 提 供 
便利 。 但 是 由 于 关键 句 比 关键 词 提供 了 更 多 的 语义 信 
息 ， 因 此 可 以 更 加 便于 领域 专家 解读 每 个 聚 类 的 主题 
含义 。 与 SkipThought", Quick-Thoughts Vectors!" 
HATA, Sentence-BERT 算法 不 但 能 够 
通过 引入 从 大 型 数据 集中 预 训练 得 到 的 通用 句子 来 提 
升 算法 效率 和 泛 化 性 能 。 同 时 ， 还 能 够 更 加 快速 地 计 
FATIME, FERKA, Ah, Sentence- 
BERT 算法 在 BERT 算法 的 基础 上 使 用 了 挛 生 网 络 和 
三 元 组 网 络 ， 生 成 具有 语义 的 名 向量， 并 使 用 池 化 层 
固定 句 向 量 的 长 度 ， 而 不 是 使 用 每 个 token 的 上 下 文 表 
示 。 与 BERT 算法 相 比 ，Sentence-BERT 算法 拥有 更 高 
的 运算 效率 。 

其 次 ， 本 文 使 用 K-means 聚 类 算法 中 和 基于 密度 
的 噪声 应 用 空间 聚 类 算法 (Density-Based Spatial Clus- 
tering of Applications with Noise, DBSCAN) 四 进行 了 
IEKE, FET SETS HE A] te AS Pb HC A Al) 
RX, K-means 算法 是 一 种 常用 的 主题 聚 类 算法 ， 其 
保证 每 个 聚 类 内 部 的 句 向 量 间距 离 尽 可 能 小 ， 同 时 保 
证 聚 类 间 的 句 癌 量 距 离 尽 可 能 大 。 文 章 [21] 利 用 
K-means 算法 对 LDA 和 加 权 Word2Vec 词 向 量 的 输出 
结果 进行 主题 聚 类 。 文 章 [22] 采 用 基于 doc2vec 的 
K-means 聚 类 分 析 。 尽 管 K-means 聚 类 方法 简单 、 有 
M, 但 是 必须 预先 设 定 聚 类 数量 。 对 比 发 现 ，DBSCAN 
算法 的 优点 就 是 不 需要 指定 集群 的 数量 ,但 是 其 结 
准确 性 更 加 依赖 数据 结构 特点 外 。 实 验 结果 表明 ， 
K-means 方法 可 以 通过 人 工 调整 聚 类 参数 挖掘 出 更 多 
有 意义 的 主题 类 别 。 由 于 专利 技术 领域 的 数据 量 较 少 ， 
因此 DBSCAN 方法 仅 能 够 完成 部 分 数据 聚 类 ， 但 是 仍 
存在 大 量 数据 没有 被 划分 到 任何 聚 类 中 。 另 外 ， 
K-means 方法 还 有 一 个 优点 ， 就 是 计算 成 本 低 ， 其 时 
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间 复 杂 度 为 O(n) (EP n 是 数据 个 数 )， 且 易于 扩展 。 
通过 对 比 ，DBSCAN 方法 虽然 无 需 人 工 参 与 调 参 , 但 
是 其 聚 类 过 程 中 需要 执行 多 次 距离 计算 ， 从 而 导致 效 
率 低下 ， 时 间 复 杂 度 为 0(n)。 因 此 将 DBSCAN 方法 
应 用 到 本 文 研究 中 是 受 限 制 的 ， 而 K-means 方法 更 适 
合 本 研究 。 

最 后 ， 领 域 专家 借助 聚 类 的 关键 名 及 关键 词 (PC 
分 类 信息 对 主题 进行 语义 标注 ， 并 通过 对 比分 析 ， 探 
测 技术 空白 。 


3.2 技术 空白 发 现 及 预测 


考虑 到 科技 管理 决策 者 需要 站 在 国家 的 角度 把 握 
科学 技术 机 会 的 投入 。 因 此 本 文 从 国家 维度 进行 中 外 
科技 主题 分 布 对 比 研 究 ， 并 分 析 中 国 的 技术 空白 点 ， 
有 助 于 辅助 科技 管理 决策 者 了 解 科技 发 展 态势 ， 从 而 
进行 科技 政策 制定 。 

首先 ， 本 文 对 中 外 论文 和 专利 的 聚 类 分 布 进行 对 
比分 析 。 通 过 判断 在 专利 中 是 否 具 备 技术 应 用 ， 确 定 
该 聚 类 主题 方向 是 否 属于 技术 空白 。 然 后 ， 使 用 中 外 
论文 和 专利 摘要 关键 句 人 能 人 向 量 聚 类 均值 表征 各 个 聚 
类 的 技术 语义 分 布 ; 使 用 各 个 聚 类 中 论文 或 专利 所 属 
学 科 或 IPC 分 类 向 量 表示 技术 的 基础 研究 分 布 或 技术 
应 用 分 布 。 其 中 分 类 向 量 的 长 度 由 所 有 聚 类 中 可 能 
出 现 的 学 科 或 PC 总 数 决 定 ， 向 量 中 某 个 维度 的 数 
值 表示 该 聚 类 里 属于 当前 维度 对 应 分 类 的 论文 或 专利 
数量 。 

具体 来 看 ， 为 了 探究 论文 和 专利 中 主题 的 语义 
相似 性 ， 并 进一步 锁定 成 熟 方向 ， 本 文 首 先 采 用 
Spearman 相关 系数 衡量 中 、 外 论文 和 专利 摘要 聚 类 的 
语义 相似 性 ， 并 构建 了 中 、 外 论文 和 专利 的 语义 相似 
性 网 络 。 该 网 络 主要 描述 了 多 源 数据 之 间 的 主题 相似 
性 关系 。 文 章 [24] 的 研究 表明 针对 词 / 句 向 量 ， 相 似 度 
和 相关 性 测量 结果 在 统计 意义 上 是 相通 的 。 另 外 ， 对 
于 词 /名 向量， 基于 排序 的 相关 性 计算 方法 要 比 其 他 基 
于 数值 的 相似 度 和 相关 性 算法 更 加 鲁 棒 。 因 此 ， 本 文 
使 用 Spearman 相关 系数 衡量 两 个 聚 类 中 心 向 量 之 间 的 
相似 性 (公式 1)。 


p -2e Rn - 8) 

"Ire -x)x(G.-x) 

X 和 X' 分 别 表示 两 个 聚 类 的 中 心 向 量 ， 即 该 聚 类 
中 所 有 论文 或 专利 的 摘要 名 向 量 的 平均 值 。 然 后 ， 将 
久 和 XX' 分 别 从 小 到 大 排序 编 秩 。Ry 和 Ry 分 别 表示 两 
个 秩 次 。px 表示 两 个 聚 类 的 语义 相似 性 。 

然后 ,使 用 Spearman 相关 系数 衡量 中 外 论文 之 间 
和 中 外 专利 之 间 的 分 类 相似 性 (公式 2) ， 并 分 别 构建 
论文 的 学 科 分 类 相似 性 网 络 和 专利 的 IPC 分 类 相似 性 
网 络 。 分 类 相似 性 值 越 小 表示 两 个 主题 的 学 科 /IPC 分 类 
差 中 越 大 ， 反 之 表示 两 个 主题 的 学 科 /IPC 分 类 越 相 近 。 

i el) 

Eb xxi -可 

Y 和 YY' 分别 表示 学 科 /IPC 分 类 向 量 。 然 后 ，Y 和 
Y' 分 别 从 小 到 大 排序 编 秩 。Ry 和 Ry 分 别 表示 两 个 秩 
Ro py 表示 两 个 聚 类 的 分 类 相似 性 。 

最 后 ， 从 语义 相似 性 网 络 中 发 气相 似 性 强 的 中 外 
论文 和 专利 聚 类 主题 连接 边 ， 提 取 成 熟 方向 ; 并 进 一 
步 在 学 科 分 类 网 络 和 IPC 分 类 网 络 中 探查 对 技术 空白 发 
展 甚 至 填补 可 能 提供 帮助 的 基础 研究 和 技术 应 用 方向 。 


(1) 


(2) 


4 实验 结果 及 分 析 论 证 


本 文 以 农业 畜牧 兽医 基因 组 学 的 科技 论文 和 专利 


R E, hA, T fa, 孙 Ei, HEE 
畜牧 兽医 基因 组 学 领域 技术 空白 中 外 对 比 研究 


NI 


为 切入 点 ， 利 用 Web of Science 平台 收录 的 SCI, SSCI 
论文 数据 的 摘要 信息 以 及 Derwent Innovations Index 专 
利 数据 的 摘要 信息 ， 对 中 外 基因 组 学 的 基础 研究 和 技 
术 应 用 进行 协同 分 析 。 其 间 ， 依 据 地 址 字段 划分 中 国 
论文 和 外 国 论 文 ， 依 据 申 请 人 国 别 代码 字段 划分 中 国 
专利 和 外 国 专利 。 检 索 时 间 范 围 为 2001 年 至 2022 年 。 
d 1 和 表 2 给 出 了 聚 类 结果 。 


4.1 技术 空白 发 现 


通过 对 比 中 外 论文 和 专利 的 产 出 数量 ， 可 以 发 现 ， 
中 国产 出 的 畜牧 兽医 领域 基因 组 学 论文 的 数量 约 占 全 
球 的 13。 专 利 的 数量 优势 则 更 加 明显 。 

通过 分 析 中 外 论文 的 主题 分 布 ， 可 以 发 现 中 国 基 
础 研究 基本 完整 覆盖 本 领域 畜牧 水 产 等 相关 物种 和 研 
究 方向 ， 并 重点 关注 基因 组 测序 和 全 基因 组 关联 分 析 。 
具体 来 看 : 名 在 基因 组 测序 方向 ， 中 外 学 者 都 产 出 了 
量 基 础 研究 成 果 ， 内 容 涉 及 畜 禽 、 水 产 和 病毒 测序 
等 方向 。 包 中 国 针对 全 基因 组 关联 分 析 的 基础 研究 主 
要 关注 畜 禽 fg. REED, URS 
缘 物 种 的 遗传 多 样 性 和 重要 性 状 基因 挖掘 。 外 国 针 对 
全 基因 组 关联 分 析 的 基础 研究 主要 围绕 3 个 方向 开展 ， 
其 一 是 基因 组 学 与 遗传 发 育 的 关联 研究 ; 其 二 是 通过 
基因 组 育种 提高 肉 蛋 奶 质量 和 产量 ; 其 三 是 抗 病 分子 
育种 。 加 外 国 对 多 维 组 学 整合 分 析 开 展 的 研究 比重 较 


Eg 


B 


del 畜牧 兽医 基因 组 学 领域 论文 聚 类 主题 列表 


Table 1 List of clusters of paper topics in the field of animal husbandry and veterinary genomics 


中 国 外 国 
类 标签 主题 名 (类 内 节点 数 /个 ) 类 标签 主题 名 (类 内 节点 数 /个 ) 
4 使 用 illumina 测序 进行 研究 (452) 1 畜 禽 遗传 标记 研究 〈721 ) 
6 水 产物 种 基因 序列 研究 (362) 8 鱼 类 基因 组 学 与 遗传 发 育 研 究 〈567 ) 
1 禽 全 基因 组 关联 研究 (3600 7 多 维 组 学 整合 研究 (540) 
5 禽类 肠 道 微生物 研究 (255) 4 畜 禽 基因 组 测序 (499) 
2 禽 和 鱼 类 肠 道 微生物 全 基因 组 关联 分 析 (240) 2 畜 禽 基因 组 育种 提高 肉质 量 和 奶 产量 (448) 
0 禽类 便 微 生物 群落 基因 组 研究 C1760 9 畜 禽 肠 道 微生物 研究 (444) 
9 禽类 全 基因 组 关联 研究 (160) 3 畜 禽 基因 组 育种 用 以 抗 病 〈439 ) 
8 畜 禽 病毒 基因 组 研究 (156) 0 鱼 类 、 昆 虫 全 基因 组 测序 研究 (46) 
7 HA miRNA 序列 研究 (154) 6 禽 病毒 基因 组 测序 (382) 
3 家 看 基 因 组 测序 (144) 5 禽类 基因 组 测序 (246) 
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表 2 畜牧 兽医 基因 组 学 领域 专利 聚 类 主题 列表 


Table 2 List of clusters of patent topics in the field of animal husbandry and veterinary genomics 


rH Eg] 外 国 
类 标签 主题 名 《类 内 节点 数 /个 ) 类 标签 主题 名 《类 内 节点 数 /个 ) 
7 猪 重要 性 状 主 效 基因 的 基因 型 检测 (234) 2 对 畜 禽 基因 进行 整合 、 修 饰 等 操作 以 预防 疾病 (33) 
5 病毒 基因 检测 (203) 0 重组 病毒 基因 组 的 方法 (30) 
2 牛 基因 单 核 苔 酸 多 态 性 检测 方法 (168) 8 核 芽 酸 序列 检测 (25) 
6 转基因 和 克隆 胚胎 方法 〈159) 9 禽 与 表 型 相关 的 基因 型 检测 〈17) 
0 羊 基 因 单 核 痛 酸 多 态 性 检测 方法 〈158) 5 标记 、 分 离 病毒 基因 组 〈16) 
8 水 产 微 卫星 标记 检测 (154) 3 对 细胞 进行 再 生 、 分 化 和 选择 (12) 
3 禽类 基因 多 态 性 检测 C142) 7 培育 转基因 禽类 方法 〈8) 
4 AA PCR 扩 增 并 检测 扩 增 产物 (140) 1 水 产 肌 动 蛋白 基因 和 启动 子 的 克隆 (6) 
1 分 离 基因 组 DNA 技术 (107) 6 家 畜 育 种 方法 〈3) 
9 A: OF HE ASE RM A C860 4 其 他 C6) 


大 ， 虽 然 目 前 仅 涉 及 基因 组 、 转 录 组 和 和 蛋白质 组 的 整 
合 研究 ， 但 是 已 经 比 中 国 在 这 方面 的 基础 研究 移行 一 
步 。 

中 外 专利 技术 布局 主要 围绕 检测 和 转基因 两 个 方 
向 。 其 中 ， 中 国 专 利 技术 主要 覆盖 中 国 主要 冀 禽 和 水 
产品 种 ， 并 重点 集中 在 检测 技术 方向 ， 在 基因 组 相关 
的 育种 技术 等 方向 上 布局 不 足 。 虽 然 国外 专利 布局 相 
对 完整 ， 但 是 申请 数量 较 少 ， 因 此 存在 全 而 不 满 的 局 
面 。 具 体 来 看 : 巴 与 检测 相关 的 中 国 专利 有 8 个 主题 ， 
外 国 仅 有 2 个 主题 ; @ 与 转基因 相关 的 中 国 专利 有 2 
个 主题 ， 外 国有 6 个 主题 ， 涉 及 基因 整合 、 修 饰 、 重 
组 、 分 离 、 再 生 、 选 择 等 操作 方法 ， 并 主要 与 疫病 防 
控 、 病 毒 基因 工程 相关 ; 加 外 国 对 家 冀 基 因 组 选择 的 


络 ， 得 到 相似 性 最 强 的 两 条 边 ， 即 中 国 论文 主题 1- 外 
国 论文 主题 1- 中 国 专 利 主题 2- 外 国 专利 主题 9 和 中 国 
论文 主题 8- 外 国 论文 主题 6- 中 国 专 利 主题 5- 外 国 专 
利 主题 0， 详 见 图 1。 这 两 条 边 表征 了 当前 该 领域 较为 
成 熟 的 研究 及 技术 方向 。 其 中 第 一 条 边 表征 的 主题 内 
容 是 畜 禽 全 基因 组 关联 分 析 。 从 研究 基础 来 看 ， 该 主 
题 以 基因 和 遗传 学 、 农 业 、 乳 制品 和 动物 科学 等 学 科 
为 支撑 。 同 样 由 这 些 学 科 衍 生出 来 的 主题 还 包括 外 国 
论文 主题 2 (对 畜 禽 基因 进行 整合 、 修 饰 等 操作 以 预防 
疾病 ) 、 外 国 论文 主题 5 (标记 、 分 离 病 毒 基因 组 ) 、 中 
国 论文 主题 9 (家 和 蛋 微 孢子 虫 蛋 白 基 因 检 测 及 利用 )、 
外 国 论文 主题 7 (培育 转基因 禽类 方法 ) 等 ， 详 见 图 
2。 由 于 受到 相同 的 基础 研究 支撑 ， 全 基因 组 关联 分 析 


育种 技术 有 相应 的 专利 布局 ， 但 是 中 国 面 对 该 技术 市 
场 较为 被 动 。 

通过 对 比分 析 可 知 ， 中 国 在 多 个 冀 禽 水 产物 种 的 
转基因 育种 技术 、 多 维 组 学 整合 分 析 技 术 等 方向 上 还 
存在 技术 空白 点 。 同 时 ， 在 多 维 组 学 整合 分 析 方 向 ， 
虽然 目前 中 国 还 没有 形成 有 利 的 基础 研究 支撑 [Hi 
通过 人 才 引 进 、 前 沿 跟踪 等 其 他 方式 ， 未 来 可 能 弥补 


这 项 研究 空白 。 


4.2 技术 空白 预测 


通过 建立 中 外 论文 和 专利 聚 类 主题 语义 相似 性 网 
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与 转基因 、 基 因 克 隆 等 技术 更 容易 在 实验 、 方 法 等 方 
面相 互 借鉴 ， 其 至 形成 交叉 融合 。 因 此 ， 未 来 转基因 
育种 方向 很 可 能 与 全 基因 组 关联 分 析 方 向 在 基础 研究 
领域 形成 融合 。 

从 技术 应 用 角度 来 看 ， 冀 禽 全 基因 组 关联 分 析 这 
个 主题 涉及 的 技术 主要 应 用 在 酶 、 核 酸 、 微 生物 的 测 
定 、 检 验 和 制备 方法 等 方面 。 在 这 些 方面 同样 有 应 用 
的 主题 包括 中 国 专利 主题 8 (水 产 微 卫星 标记 检测 )、 
中 国 专 利 主题 7 〈 猪 重要 性 状 主 效 基因 的 基因 型 检测 )、 
外 国 专 利 主题 6 (家 冀 育 种 方法 ) 、 外 国 专利 主题 1 
(水 产 肌 动 蛋白 基因 和 局 动 子 的 克隆 ) 等 。 由 图 3 可 知 


畜牧 兽医 基因 组 学 领域 技术 空白 中 外 对 比 研究 
一 一 0 商 高 类 便 微生物 群落 基因 组 研究 一 一 0 羊 基因 单 核 苦 酸 多 态 性 检测 方法 


一 一 1 分 离 基因 组 DNA 技 术 


全 基因 组 关联 研究 
> " | ELICIT 
IN o unen ` 
ESSE 3 高 类 基因 多 态 性 检测 
Ly 
Em 因 组 测序 , 一 一 4 瘟 禽 PCR 扩 增 并 检测 扩 增 产物 
WM. A ausum SZARY 
加 4 使 用 illumina 测 序 进行 研究 x m 6 转基因 和 克隆 胚胎 方法 
" — 7 猪 重要 性 状 主 效 基因 的 基因 型 检测 
| BS — 8 水 产 微 卫 星 标记 检测 
一 一 9 家 等 微 抱 子 虫 蛋白 基因 检测 及 利 上 


Ld 6 水 产物 种 基因 序列 研究 


一 一 7 畜 高 miRNA 序 列 研究 


| 
saa | REI | [ILLE 
-/ _ 1 未 产 肌 动 蛋白 基因 和 启动 子 的 
TRAGIC i 克隆 
i H — Quae. (Iss 
: 一 一 2 畜 高 基因 组 育种 提高 肉质 量 和 奶 产量 ! BAARDE uu 
! \ | ES ! = "Dmm 
1 1 其 
1 \ 图 PET ERU ! 一 一 5 标记 、 分 离 病毒 基因 组 
i | ES | RRDA 
! ! 一 一 7 培育 转基因 高 类 方法 
! EE EE 1 一 一 8 核 音 本 序列 检测 
1 
| EU sarean i g 畜 高 与 表 型 相关 的 基因 型 检测 
I 
! Nol sexes smesso i i 
1 1 
l | Ess ! ! 
i i i ! 
i | | | 
中 国 论文 聚 类 主题 外 国 论文 聚 类 主题 中 国 专利 聚 类 主题 。 外 国 专利 聚 类 主题 


图 1 畜牧 兽医 基因 组 学 领域 中 外 论文 专利 聚 类 主题 语义 相似 性 网 络 图 


Fig.1 Semantic similarity network of clusters between domestic and international papers and patents in the field of animal husbandry 


and veterinary genomics 


一 一 0 冀 盒 凑 便 微生物 群落 基因 组 研究 
0 鱼 类 、 昆 虫 全 基因 组 测序 研究 
1 畜 含 全 基因 组 关联 研究 
| TESSOBICERCWISS 
一 一 2 畜 禽 和 鱼 类 肠 道 微生物 全 基因 组 关联 分 析 
一 一 3 家 重 基 因 组 测序 


2 瘟 禽 基因 组 育种 提高 肉质 量 和 奶 产量 


— 3 音 祝 基因 组 育种 用 以 搞 病 
E ARR: 


m 5 高 类 基因 组 测序 


4 使 用 illumina 测 序 进行 研究 


国 6 瘟 谢 病毒 基因 组 测序 
— SAA EA m 7 多 维 组 学 整合 研究 
6 水 产物 种 基因 序列 研究 E 8 鱼 类 基因 组 学 与 中 传 发育 关联 研究 
—— 7 畜 售 miRNA 序 列 研究 国 9 畜 禽 肠 道 微生物 研究 
一 一 8 瘟 禽 病毒 基因 组 研究 
0 元 类 全 基因 组 关联 研究 
中 国 论文 聚 类 主题 外 国 论文 聚 类 主题 


图 2 畜牧 兽医 基因 组 学 领域 中 外 论文 聚 类 主题 学 科 分 类 相似 性 网 络 图 
Fig.2 Discipline classification similarity network of clusters between domestic and international papers in the field of animal husbandry 


and veterinary genomics 
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该 技术 应 用 方向 还 未 形成 较 强 的 IPC. 分 类 相似 性 边 。 
因此 ， 虽 然 目 前 中 国 在 转基因 育种 领域 还 没有 形成 独 
立 的 技术 应 用 主题 , 但 是 通过 人 才 引 进 等 其 他 方式 借 
鉴 外 国 经 验 ， 并 伴随 转基因 技术 与 全 基因 组 关联 分 析 
在 基础 研究 领域 的 进一步 交叉 融合 ， 未 来 中 国 在 转 基 
因 育 种 技术 领域 将 大 有 发 展 ， 并 有 机 会 推动 全 基因 组 
关联 分 析 在 育种 领域 获取 更 大 应 用 空间 。 

第 二 条 强 相似 性 边 表征 的 主题 内 容 是 畜 禽 病毒 基 
因 组 分 析 。 从 研究 基础 来 看 ， 该 主题 由 病毒 学 、 兽 医 


应 用 在 突变 或 遗传 工程 以 及 含有 抗原 或 抗体 的 医药 配 
制品 方向 。 在 这 两 个 方向 有 相似 技术 应 用 的 主题 还 包 
括 中 国 专利 主题 6 (转基因 克隆 胚胎 方法 )、 外 国 专利 
主题 5 (标记 、 分 离 病毒 基因 组 ) 等 ， 详 见 图 3。 可 
见 ， 昌 然 目 前 多 组 学 整合 技术 在 全 球 范 围 内 尚 没有 形 
成 独立 技术 应 用 主题 ,但 是 通过 与 畜 禽 病毒 基因 组 分 
析 在 基础 研究 方向 的 交叉 融合 ， 未 来 必 将 在 畜 禽 病毒 
基因 组 技术 领域 大 有 可 为 ,其 至 可 能 促进 转基因 畜 禽 
病毒 多 组 学 整合 技术 成 为 日 后 的 技术 研发 热点 。 


学 衍生 而 来 。 同 样 由 这 两 个 学 科 衍 生 而 来 的 主题 包括 
外 国 论文 主题 7 (多 组 学 整合 研究 ) 、 中 国 论文 主题 7 
(f$ & miRNA 序列 研究 ) 、 外 国 论文 主题 9 ( 畜 禽 肠 道 
微生物 研究 )、 中 国 论文 主题 4 (使 用 illumina 测序 进 
行 研究 ) 等 ， 详 见 图 2。 可 见 ， 当 前 病毒 学 和 兽医 学 已 


4.3 结果 验证 


为 了 验证 本 文 方法 的 有 效 性 ， 对 比 了 其 他 学 者 的 
相关 研究 成 果 。 文 章 [25] 通 过 科技 论文 分 析 识 别 出 中 外 
基因 组 测序 、 基 因 组 拼接 、 数 据 库 构 建 等 热点 。 这 些 


经 在 多 个 研究 方向 上 形成 交叉 融合 。 未 来 多 组 学 整合 
分 析 很 有 可 能 首先 与 冀 禽 病毒 基因 组 分 析 相 融合 ，3 
相互 推动 继续 深入 发 展 。 

从 技术 应 用 角度 来 看 ， 冀 禽 病 毒 基 因 组 分 析 主 要 


单 核 音 酸 多 坊 性 检测 方法 
组 DNA 技 术 

— 2 牛 基因 单 核 首 酸 多 态 性 检测 方法 
一 一 3 禽类 基因 多 态 性 检测 

一 一 4 畜 售 PCR 扩 增 并 检测 扩 增 产物 


5 病毒 基因 检测 


和 克隆 胚胎 方法 


一 一 7 猪 重要 性 状 主 效 基因 的 基因 型 检测 
一 一 8 水 产 微 卫星 标记 检测 
9 家 丢 微 孢子 虫 避 白 基因 检测 及 利 


中 国 专利 聚 类 主题 


热点 与 本 文 聚 类 主题 相 呼 应 。 同 时 ， 该 文中 对 基因 组 
学 理论 创新 和 整体 性 研究 的 预测 与 本 文 发 现 的 多 组 学 
整合 关联 研究 技术 空白 部 分 相互 印证 。 文 章 [26] 介 绍 了 
基因 组 学 在 发 展 中 国家 畜牧 业 的 应 用 以 及 未 来 机 遇 。 


eo 


重组 病毒 基因 组 的 方法 


__ 1 水 产 肌 动 蛋白 基因 和 启动 子 的 
克隆 


— 2 对 畜 离 基因 进行 整合 、 修 饰 等 
操作 以 预防 疾病 

一 一 3 对 细胞 进行 再 生 、 分 化 和 选择 

一 一 4 其 他 


5 标记 、 分 离 病 毒 基 因 组 


一 一 6 家 畜 育种 方法 

一 一 TS BEES 
一 一 8 核 首 酸 序列 检测 

一 一 9 畜 禽 与 表 型 相关 的 基 


外 国 专利 聚 类 主题 


型 检测 | 


图 3 畜牧 兽医 基因 组 学 领域 中 外 专利 聚 类 主题 IPC 分 类 相似 性 网 络 图 


Fig.3 IPC classification similarity network of clusters between domestic and interna-tional patents in the field of animal husbandry and 


veterinary genomics 
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该 文中 讨论 的 全 基因 组 关联 研究 、 测 序 、 病 原 体检 测 、 
疫苗 开发 和 其 他 相关 技术 与 本 文 方法 发 现 的 技术 空白 
相 吻 合 。 前 人 的 研究 可 以 从 侧面 印证 本 文 结论 的 可 靠 
性 和 本 文 方法 的 有 效 性 。 男 外 本 文 识别 的 技术 空白 从 
中 外 论文 和 专利 出 发 ， 数 据 源 多 样 ， 数 据 基础 更 扎实 ， 
此 更 具 针对 性 和 说 服 力 。 


本 文 针 对 畜牧 兽医 基因 组 学 领域 开展 了 中 外 技术 
空白 对 比 研究 ， 从 中 发 现 了 中 国 技术 空白 ， 并 对 其 未 
来 发 展 给 出 了 咨询 建议 。 分 析 结 果 表 明 中 国 论文 和 专 
利 产量 大 ,但 是 技术 架构 布局 没有 外 国 完整 ， 且 中 国 
论文 的 主题 覆盖 全 于 专利 。 具 体 来 看 ， 中 国 在 多 组 学 
整合 关联 研究 上 缺少 足够 的 基础 研究 支撑 ， 技 术 条 件 
也 不 完备 ; 中 国 的 转基因 育种 技术 领域 也 属于 技术 空 
白 。 另 外 ， 转 基因 育种 与 全 基因 组 关联 分 析 、 多 组 学 
整合 与 畜 禽 病毒 基因 组 分 析 都 存在 进一步 交叉 融合 的 
可 能 ， 未 来 将 成 为 新 的 技术 融合 点 。 

本 研究 仍 存 在 不 足 之 处 : 人 为 分 析 解 读 科技 论 
文 和 技术 专利 的 关联 仍然 耗费 时 间 和 人 力 。 在 未 来 研 
究 中 ， 会 设计 更 自动 的 方法 构建 两 种 数据 对 象 的 关联 
对 比方 法 。 包 专家 解读 聚 类 主题 仍 有 可 提升 空间 ， 未 
来 可 以 考虑 加 入 更 多 数据 资料 ， 增 加 标签 信息 ， 在 减 
少 人 工 标注 工作 的 同时 ， 为 结果 验证 提供 判断 量化 准 
确 率 的 可 能 。 
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Comparative Study on the Technology Gaps in the Field of Animal Husbandry and 
Veterinary Genomics between China and Foreign Countries 


WU Lei", LI Xiaojie*, DING Qian™, SUN Wei", ZHOU Zhengkui* 
(1. Agricultural Information Institute of CAAS, Beijing 100081; 2. Key Laboratory of Ag-ricultural Big Data Ministry of Agriculture and 
Rural Affairs.P.R.China, Beijing 100081; 3. Shenzhen Agricultural Genome Research Institute of CAAS, Shenzhen 518120; 
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Abstract: [Purpose/Significance] In order to explore the technological gaps in Chinese im-portant agricultural fields and predict the 
future trends of these gaps, this study investigates technology opportunity discovery in the embryonic and developmental stages from the 
per-spectives of technology gap discovery and technology fusion opportunity discovery, provid-ing consultation and suggestions for 
decision-makers on the technology development op-portunities for technology innovation. [Method/Process] First, TextRank method 
was used to mine information in abstracts of papers and patents in this paper, which is a key sentence embedding method. The sentence 
vector clustering method was applied to extract topic sen-tences of papers and patents. Second, comparative analysis of topic clustering 
was used to detect technology gaps. Third, semantic similarity networks and classification similarity networks were used to discover the 
theme directions, which are likely to develop into cross-domain research areas with these technology gaps. [Results/Conclusions] The 
experi-mental results indicate that the proposed method can identify technological gaps. Combined with expert analysis, the 
experimental results can show the current development status and predict the trends of genomics technology in the field of animal 
husbandry and veterinary medicine. At the same time, this study can provide methodological and data support for genomics technology 
think tanks in the field of animal husbandry and veterinary medicine in China. Specifically, China has published a large number of 
papers and patents, but the tech-nical architecture layout is not as complete as foreign countries. The topics of Chinese papers are more 
complete than those of Chinese patents. In addition, China lacks sufficient basic research support in the integration and association of 
multi-omics, and the technical conditions are also incomplete. The field of genetically modified (GM) breeding technology is also 
recognized as a technological gap in China. In addition, it is possible that GM breeding and whole genome association analysis, 
multi-omics integration and viral genome analysis of livestock and poultry will become new technological fusion points in the future. 
There are still drawbacks in this study: It still takes time and manpower to manually analyze and interpret the relationship between 
scientific papers and technological patents. In the future research, more automated methods will be designed to construct correlation 
comparison methods between two data objects. Additionally, there is still room for improvement in expert interpretation of clustering 
themes. In the future, more data can be considered to add label information, reducing manual annotation work while providing the 
possibility of increasing quantitative accuracy in the result validation section. 


Keywords: technology gaps discovery; key sentence extraction; sentence embedding clus-tering; genomics; intellectual property 
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